在本文中,我们提出了Dexter,这是一个端到端系统,以从医疗保健文件中存在的表中提取信息,例如电子健康记录(EHR)和福利解释(EOB)。 Dexter由四个子系统阶段组成:i)表检测ii)表类型分类iii)细胞检测;和iv)细胞含量提取。我们建议使用CDEC-NET体系结构以及用于表检测的非最大程度抑制作用,提出一种基于两阶段的转移学习方法。我们根据图像大小来检测行和列设计一种常规的基于计算机视觉的方法,用于使用参数化内核进行表类型分类和单元格检测。最后,我们使用现有的OCR发动机Tessaract从检测到的单元中提取文本。为了评估我们的系统,我们手动注释了现实世界中医学数据集(称为Meddata)的样本,该样本由各种文档(在外观上)组成,涵盖了不同的表结构,例如,诸如边界,部分边框,无边界或无边界,或彩色桌子。我们在实验上表明,Dexter在注释的现实世界医学数据集上优于市售的Amazon swark和Microsoft Azure形式识别器系统
translated by 谷歌翻译
自动化医学编码是将临床注释编码为适当诊断和程序代码的一个过程,该过程会自动从ICD(国际疾病国际分类)和CPT(当前程序术语)中自动制定。手动编码过程涉及从临床注释中识别实体,然后查询遵循Medicare和Medicaid Services中心(CMS)指南的商业或非商业医学法规信息检索(IR)系统。我们建议通过使用从临床注释自动提取的实体自动构造IR系统的查询来自动化此手动过程。我们提出\ textbf {grabqc},a \ textbf {gra} ph \ textbf {b} ased \ textbf {q} uery \ textbf {c} onTextualization方法,该方法自动从临床文本中提取查询,从而使用临床文本提取质量,并在图形上提取质量网络(GNN)模型并使用外部IR系统获得ICD代码。我们还提出了一种标记用于训练模型的数据集的方法。我们在三个不同的设置中对两个临床文本数据集进行实验,以主张我们方法的有效性。实验结果表明,我们所提出的方法比所有三个设置中的基准都更好。
translated by 谷歌翻译